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摘 要 : 疲劳 驾驶 是 造成 交通 事故 的 主要 原因 之 一 ， 通 过 视觉 传感器 采集 驾驶 员 面部 图 像 并 进行 基于 视觉 特征 分 析 的 
疲劳 驾驶 检测 具有 实际 意义 。 针 对 视觉 特征 分 析 疲 劳 检 测 问 题 ， 设 计 了 一 种 级 联 深度 学 习 的 检测 系统 结构 ， 并 提出 基 

于 多 尺度 池 化 的 卷 积 神经 网 络 疲劳 状态 检测 模型 。 首 先 通过 深度 学 习 模 型 MTCNN 进行 人 脸 检测 ， 提 取出 眼睛 和 嘴巴 
区 域 。 针 对 眼睛 和 嘴巴 的 状态 表征 和 识别 问题 ee ResNet 的 多 尺度 池 化 模型 (MSP) 对 眼睛 和 嘴巴 状态 进 
行 训练 。 实 时 检测 时 ， 将 眼睛 嘴巴 区 域 通过 训练 好 的 卷 积 神经 网 络 模型 进行 状态 识别 ， 最 后 基于 PERCLOS 和 提出 的 
嘴巴 张 合 频 率 (FOM) 对 驾驶 员 进 行 疲劳 判定 。 实 验 结果 表明 ， 该 算法 具有 较 高 的 检测 准确 举 ， 同 时 满足 实时 性 要 求 ， 
且 对 复杂 环境 具有 较 高 的 鲁 棒 性 

关键 词 : 视觉 特征 分 析 ; 多 尺度 池 化 ; 卷 积 神经 网 络 ; 疲劳 检测 ; 人 脸 检 测 
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Driver’s fatigue detection system based on multi-scale pooling convolutional neural networks 
Gu Wanghuan, Zhu Yui, Chen Xudong, Zheng Bingbing, He Linfei 


(Dept. of Electronics & Communication Engineering, East China University of Science & Technology, Shanghai 200237, 
China) 


Abstract: Fatigue driving is one of the main causes of traffic accidents, particularly for drivers of large vehicles like buses and 


heavy trucks. For designing driver fatigue monitoring systems, the visual features based techniques is one of the most effective 


S 国 approaches. This paper proposed a hierarchical convolutional neural network model with multi-scale pooling for vision-based 
fatigue detection system. The first step is face detection and extraction of eye and mouse regions by deep learning 
model—MTCNN. In order to solve the problem of characterization and recognition of eye and mouth regions, this paper 
proposed a multi-scale pooling model (MSP) based on ResNet to train different states of eye and mouth. In real-time detection, 
the paper recognized the states of eye and mouth by the pre-trained convolutional neural network model. Finally, this paper 
detect fatigue through the PERCLOS and the frequency of open mouth (FOM) . The experimental results show that the 
proposed algorithm has high detection accuracy, real-time performance and high robustness to complex environments. 


Key words: visual feature analysis; multi-scale pooling; convolutional neural network; fatigue detection; face detection 


0 als 分 析 上 。 基 于 驾驶 员 面 部 行为 特征 的 疲劳 检测 算法 一 般 分 为 两 
步 :a) 人 脸 检测 ，(b) 根 据 面部 行为 状态 判断 疲劳 。 
美国 汽车 协会 交通 安全 基金 会 (AAA Foundation for Traffic 针对 人 脸 检 测算 法 的 研究 有 很 多 ， 文 献 [2] 是 Vlola 的 经 


Safety) 叫 的 一 项 调查 表明 : 16%-21% 的 交通 事故 是 由 于 驾驶 员 ZE, 该 文 首次 引入 积分 图 概念 ,结合 Adaboost 算法 进行 人 脸 
疲劳 驾驶 导致 的 。 尤 其 对 于 驾驶 时 间 较 长 的 卡车 、 公 共 汽 车 竺 检测 ， 在 保证 检测 效果 的 同时 提高 了 检测 速度 ， 做 到 了 实时 监 
大 型 车 辆 尤为 严重 。 因 此 ， 驾 驶 员 疲 劳 检测 技术 对 于 预防 交通 W; Yong Du 等 人 外 提 出 一 种 基于 驾驶 员 了 眼睛 变化 状态 判断 疲 
大 故 有 着 重要 的 研究 意义 。 劳 的 方法 ， 该 方法 使 用 了 帧 差 法 绑 定 颜色 信息 检测 人 脸 ; 2012 

当 人 进入 疲劳 状态 时 , 往往 会 伴随 各 种 生物 特征 上 的 变化 ， E 卷 积 神经 网 络 (convolutional neural networks,CNN) |! 4 
如 打 哈 欠 、 长 时 间 的 闭 眼 、 脑 电波 和 心 电 波 的 变化 等 。 本 文 针 ImageNet 大 赛 上 一 鸣 惊 人 ， 使 得 深度 学 习 (deep learning, DL) Ak 
对 需求 将 疲劳 检测 的 研究 主要 集中 于 对 驾驶 员 面 部 行为 特征 的 为 近年 来 研究 图 像 视频 等 邻 域 最 热门 的 方法 ， 如 图 像 检 索 Bl 
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人 体 行为 识别 外 、 场 景 分 析 外 等 均 取 得 了 
检测 和 识别 加 的 应 用 


巨大 的 成 功 。 在 人 脸 


H ， 深 度 学 习 方法 亦 是 效果 显著 。Taigman 


等 人 四 在 2014 年 提出 了 DeepFace 模型 ， 将 深度 学 习 模型 成 功 
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于 人 脸 检测 和 识别 


摄像 机 拍摄 数据 


生 差 的 问题 ， 大 大 提高 了 人 脸 检测 和 识别 的 准确 性 ; 


Ph， 解决 了 传统 方法 中 普遍 存在 的 鲁 棒 


Chin 
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FR ERK, 


Zhang 等 人 (10 提出 了 一 种 多 任务 的 卷 积 神经 网 络 模型 (multitask 
convolutional neural networks, MTCNN)， 将 人 脸 检测 分 为 三 层 
网 络 进行 训练 。 该 模型 能 够 快速 准确 地 检测 多 个 人 脸 ， 并 对 侧 
脸 检测 具有 良好 的 鲁 棒 性 , 其 在 FDDB、WIDERFACE 和 AFLW 


2016 年 ， 


眼睛 嘴巴 区 
提取 


人 脸 数 据 集 上 的 验证 结果 达到 95%。 


MSP-Net PERCLOS 


判断 疲劳 状态 


4 as et a 
预 训练 = 
预 训练 
图 1 算法 流程 
针对 面部 状态 判断 疲劳 的 方法 主要 是 从 眼睛 的 睁 闭 和 打 哈 。 FEUDS), AERE 20 万 张 左右 ， 包 含 边框 标注 和 5 个 关键 
欠 的 行为 进行 判断 的 。Wierwille 等 人 tI 建立 了 一 种 PERCLOS 点 信息 (两 个 眼球 的 中 心 坐 标 、 自 尖 坐 标 和 两 个 嘴角 坐标 )。 网 
的 理论 模型 ， 该 模型 将 PERCLOS 定义 为 单位 时 间 内 有 眼 瞪 闭合 。” 络 训练 回归 的 是 人 脸 边 框 和 5 个 关键 点 坐标 。 
程度 达到 70% 或 者 80% 的 时 间 占 比 ，PERCLOS 已 成 为 一 种 非 眼睛 和 嘴巴 图 像 状态 判定 网 络 训练 的 数据 由 本 文笔 者 在 实 
常 有 效 的 疲劳 判定 的 指标 ; Chu 等 人 02 则 通过 研究 嘴巴 的 形状 ， 际 工作 中 自主 采集 ,包括 部 分 实际 鸭 驶 员 图 像 及 21 位 志愿 者 协 
将 嘴巴 的 数据 输入 到 BP 网 络 中 进行 训练 ， 分 类 出 三 种 不 同 精 。 助 获得 。 考 虑 到 驾驶 员 有 夜间 驾驶 的 情况 ， 采 和 集 的 设备 除了 使 
神 状态 的 类 别 。 用 普通 摄像 头 以 外 ， 还 使 用 红外 摄像 头 。 在 图 像 和 视频 采集 过 
用 深度 学 习 进 行 疲劳 检测 已 成 为 近年 来 的 热点 之 一 。 赵 雪  ” 程 中 ， 综 合 考虑 驾驶 员 实 际 驾 驶 时 的 各 种 复杂 环境 问题 ， 采 集 


Be AL 


使 用 


检测 ， 


以 此 判 


WEST: KESAN 


了 一 种 级 联网 络 来 对 眼睛 部 位 进行 定位 和 状态 


则 是 首先 使 用 


AdaBoost 和 


KCF (kernelized correlation filters) 进 行人 脸 的 检测 和 跟踪 ， 然 后 


再 使 月 


基于 视觉 图 像 处 天 


PAIDE ter 


然而 


于 真实 场景 下 


脸 检测 精度 和 面部 行为 特 和 
问题 ， 本 文 提 出 了 一 种 级 联 深 度 学 


‘BI 


经 典 的 网 络 结构 对 眼睛 和 嘴巴 的 状态 进行 检测 。 
I 是 一 个 已 经 研究 多 年 的 课题 
E 照 、 人 员 表 情 情况 干扰 较 大 ， 在 人 


FE 检 测 精 度 上 依然 有 待 提 高 。 针 对 此 


习 结 构 及 基于 多 尺度 池 化 卷 


职 神经 网 络 (multi-scale pooling networks，MSP-neb 的 疲劳 状态 


检测 模型 。 通 
眼睛 和 嘴巴 的 数据 ， 将 眼睛 和 
MSP-Net CNN 网 络 中 进行 检测 ， 
情况 ， 最 后 根据 PERCLOS 和 
mouth, FOM) 联 合 判 断 疲劳 。 


1 MA 
1.1 数据 采集 


过 已 经 


| 练 好 的 MTCNN 模型 检测 出 人 
嘴巴 数据 分 别 放 入 已 经 训练 好 的 
判断 眼睛 的 睁 闭 和 嘴巴 的 张 合 
嘴巴 张 合 频率 (frequency of open 


Po eR 


Lite on RI 


1 所 示 。 


本 文 的 疲劳 检测 系统 采用 两 个 深度 学 习 模型 级 联 形式 ， 一 


个 是 针对 检测 人 脸 及 提取 眼睛 
是 本 文 提 出 的 对 眼睛 和 嘴巴 
网 络 。 这 两 个 网 络 都 需要 预 训练 。 


CNN 


H 


的 成 绩 ， 本 文 利用 
将 重点 工作 放 在 疲劳 检测 各 
KZhang 等 人 已 经 训练 好 的 模型 , 作者 使 


已 有 的 优秀 网 络 来 获得 人 
E 务 中 。 本 文采 用 


和 嘴巴 图 像 的 MTCNN， 另 一 个 
图 像 进行 状态 判定 的 多 尺度 池 化 


于 近年 来 深度 学 习 模型 在 人 脸 检 测 方面 已 经 取得 了 骄 人 


ERIRE, m 
的 MTCNN 网 络 是 
| WIDER FACE 数 


的 图 像 数 据 包括 眼睛 睁 闭 、 嘴 巴 张 合 、 无 眼镜 、 佩 戴 眼 镜 、 正 

面 和 侧面 等 各 种 情况 。 采 集 之 后 进行 筛选 处 理 ， 剔 除 部 分 噪声 

样本 。 最 后 将 筛选 好 的 样本 进行 分 类 : 普通 摄像 头 的 睁 眼 、 闭 
眼 、 张 嘴 、 闭 嘴 和 红外 摄像 头 的 睁 眼 、 闭 眼 、 张 嘴 、 闭 嘴 情 况 。 

» ， 其中， 眼睛 一 共 36 764 个 样本 ， 嘴 巴 一 共 15 185 个 样本 。 样 
本 示例 如 图 2 所 示 。 
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图 2 RA 
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本 示例 


1.2 数据 预 处 理 

由 于 红外 摄像 头 采 集 的 样本 图 像 亮度 普遍 偏 低 ， 直 接 放 入 

网 络 训练 效果 不 好 ， 所 以 ， 还 需 对 样本 进行 预 处 理 。 本 文 使 用 

直方 图 均衡 09 的 方法 。 

直方 图 均衡 的 目的 是 为 了 增强 局 部 对 比 度 。 其 主要 步 又 是 

原 图 灰 度 级 的 累计 概率 ， 根 据 映 射 关 系 将 原 灰 度 值 映射 到 
值 。 如 灰 度 值 为 0~255 的 灰 度 图 像 ， 其 灰 度 映射 关系 


求 出 
新 的 灰 度 
如 下 : 


Pr = 255 * Efo% k =0,1,2...,L—1 a) 
其 中 : px 表示 映射 后 的 灰 度 值 ; 上 表示 第 K 个 灰 度 级 ; 一 
KER: n 表 示 所 有 像素 个 数 ; mi 表示 第 i 个 灰 度 级 的 像素 个 数 ; 


得 出 的 px 最 后 再 取 整 。 图 3 展示 了 直方 图 均衡 前 后 的 对 比 。 


ELA 


201808.00051 v1 


chinaXiv 


ChinaXivG@ (ESAT! 
录用 稿 EK, Fi 基于 多 尺度 池 化 着 积 神经 同 络 的 疲劳 检测 方法 研究 
(candidate facial windows) 和 边框 回归 向 量 (bounding box 
regression vectors)， 用 该 边框 回归 对 候选 脸 部 窗口 进行 校准 ; 
接着 使 用 非 极 大 值 抑制 mqonmaximum suppression, NMS) 3A JF 
i i 高 度 重 合 候选 区 域 。 
图 3 直方 图 均衡 前 后 对 比 R-NET: 将 P-NET 得 到 的 候选 区 域 放 入 此 网 络 中 ， 进 一 步 
和 划 查 掉 大 量 错误 候选 区 和 做 校准 ， 最 后 同样 使 用 NMS 进行 合 
2 ”人 脸 检测 rae 
候选 区 域 。 
传统 人 脸 检测 算法 , 如 AdaBoost 或 者 帧 差 法 等 对 于 复杂 环 O-NET: 这 一 层 网 络 与 R-NET 类 似 , 但 这 一 层 做 得 更 加 细 
境 的 鲁 棒 性 较 差 ， 深 度 学 习 模 型 在 这 方面 有 着 其 巨大 的 优势 。 致 ， 将 对 候选 区 域 进 行 更 严格 的 监督 ， 最 后 多 输出 5 个 关键 点 
本 文 借鉴 Zhang 等 人 的 MTCNN 模型 进行 人 脸 检测 部 分 的 工作 。 坐标。 
MTCNN 的 网 络 结构 如 图 4 所 示 , 主要 分 为 P-NET、R-NET MTCNN 的 鲁 棒 性 很 好 ， 对 于 旋转 了 一 定 角度 的 人 脸 依然 
和 O-NET Z. 可 以 准确 地 检测 。 通 过 MTCNN 检测 人 脸 ， 并 根据 返回 的 5 个 
P-NET: 首先 构建 图 像 金字 塔 ， 然 后 通过 一 个 全 卷 积 网 络 关键 点 ， 可 以 成 功 标志 出 眼睛 嘴巴 部 位 。 如 图 5 所 示 ， 左 图 是 
(fully convolutional network，FCN)U71， 获 取 候 选 脸 部 窗口 普通 摄像 头 下 的 检测 结果 ， 右 图 是 红外 摄像 头 下 的 检测 结果 。 
P-NET 
i 4 #633 a uss Pe 1 
l 池 化 :3x3 卷 积 :3x3 C 脸 部 分 类 ! 
| 1x1x2 ! 
i || = > C 边框 回归 i 
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I BART: | re 
0 B10 ee i 
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图 5 MTCNN 人 脸 检 测 与 眼睛 嘴巴 


区 域 提取 


3 ”多 尺度 池 化 卷 积 神经 网 络 MSP-Net 
提取 出 眼睛 和 哗 巴 部 位 后 ， 就 需要 进行 眼睛 和 嘴巴 的 状态 
检测 。 本 文 提出 了 一 种 多 尺度 池 化 卷 积 神经 网 络 模型 


4 MTCNN 结构 


(multi-scale pooling networks, MSP-net ) 分 别 训练 眼睛 和 嘴巴 的 
3.1 模型 设计 
多 尺度 池 化 卷 积 神经 网 络 模 型 (MSP-net) 在 ResNet09 的 结 
构 基 础 上 进行 改进 ， 保 留 了 残 差 概念 ， 在 pooling 层 将 原来 的 
max pooling 修改 为 本 文 提出 的 多 尺度 池 化 (MSP)， 用 以 提高 对 
不 同 分 辨 率 下 采集 图 像 的 识别 效果 。MSP 的 结构 如 图 6 所 示 。 
MSP 模块 步骤 如 下 : a) 将 上 一 级 网 络 传 入 的 特征 图 (feature 
组 边 长 比 原 特征 图 小 4 倍 
边 长 缩小 一 倍 ， 


二 两 次 max pooling 得 到 
的 特征 图 ; b) 对 原 特 征 图 进行 尺度 缩放 操作 ， 


maps) 先 经 过 
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再 对 得 到 的 新 特征 图 进行 一 次 max pooling 得 到 另 一 组 边 长 为 党 含 层 ， 长 度 为 1000， 最 后 经 过 softmax 输出 分 类 结果 ， 类 别 
原 特 征 图 1/4 大 小 的 特征 图 ; c) 对 原 特 征 图 再 进行 尺度 缩放 ， 分 为 普通 摄像 头 睁 眼 、 红 外 摄像 头 睁 眼 、 普 通 摄像 头 闭 眼 和 红 
边 长 缩小 为 原来 的 1/4 倍 ; d) 将 三 次 输出 的 特征 图 进行 级 联 ， 外 摄像 头 闭 眼 四 类 。 
传 入 后 面 的 深度 学 习 网 络 。 为 了 验证 MSP-net 的 有 效 性 ， 本 文 除 了 使 用 MSP-net 进行 

多 尺度 池 化 模型 的 思想 来 源 于 空间 金字 塔 池 化 模型 。 相 实验 ， 同 时 使 用 经 典 AlexNet 册 和 ResNet 结构 作为 对 比 网 络 进 
比 于 空间 金字 塔 模型 ， 多 尺度 池 化 的 优点 在 于 其 代入 位 置 更 加 行 了 训练 和 测试 ， 进 行 了 相关 对 比 实验 。6.2 节 显 示 了 三 种 网 
灵活 ， 可 以 在 网 络 的 开头 、 中 间或 是 结尾 多 次 使 用 。 络 的 对 比 实验 结果 。 
3.2 ”损失 函数 与 优化 方法 

网 络 最 后 使 用 的 是 softmax 分 类 方法 , 且 分 为 四 类 , softmax 


= 
co 


Z exp(y) I 
P = op J 70123 


其 中 : pj 表示 为 第 j 类 的 概率 ; yj = Lihi wij + bj RRA 
居 最 后 一 层 输 出 ，hi 是 上 一 层 输出 ，wi,j 和 bj 分 别 为 最 后 一 层 的 


权重 和 偏 置 。 
HR R KUEN NIE X K: 
图 6 多 尺度 池 化 (msp) 模 块 Lm = — 23)-01{y = j}logp; (3) 


本 文 设计 的 MSP-net 网 络 的 结构 如 图 7 所 示 。 了 眼睛 与 嘴巴 。 其 中 : Lnr Re aN Am PEAR 20 Us fy = 月 表示 示 性 函数 ， 
的 训练 方式 一 致 ， 这 里 以 眼睛 为 例 。 在 MSP-net 中 ， 输 入 图 像 ” 即 当 y = j 时 ， 该 函数 为 1， 当 yj 时 ， 该 函数 为 0。 式 G) 是 
为 48*48 大 小 的 灰 度 图 ， 经 过 一 次 卷 积 和 MSP 输出 12*12*48 ”单个 样本 的 损失 函数 ， 当 有 M 个 训练 样本 时 ， 损 失 函 数 需 要 求 
的 feature maps， 卷 积 核 大 小 为 3*3; 之 后 经 过 一 个 残 差 块 FY: 


(residual block)， 残 差 块 中 有 两 层 卷 积 ， 卷 积 核 大 小 还 是 3*3, L=M ln (4) 
残 差 块 输出 12*12*48 的 feature maps; 再 经 过 一 次 max pooling, 优化 方法 使 用 了 自 适 应 矩 估 计 方 法 (adaptive moment 


输出 6*6*48 的 feature maps; 之 后 将 feature maps 转换 成 一 维 estimation, Adam)!?!!, 
向 量 ， 进 入 全 连接 层 ， 全 连接 层 输入 序列 长 为 1 728， 有 一 层 


MSP-Net 


48x48x1 12x12x48 12x12x48 


卷 积 :3x3 


卷 积 :3X3 


oe 跳跃 连接 (shortcut connection) 


HHR 


@ 
闭 眼 @ 
@ 
@ 


图 7 MSP-net 结构 
4.1 PERCLOS 
4 sl HS 态 nl 
疲劳 状态 检测 PERCLOS 表示 的 是 单位 时 间 内 眼睛 闭合 帧 数 和 单位 时 间 
驾驶 员 在 进入 疲劳 时 会 有 一 系列 生物 特征 上 的 反应 ， 如 长 ”总 帧 数 之 间 的 比值 01。 其 计算 公式 如 下 : 


时 间 闭 眼 、 打 哈欠 等 。 基 于 这 种 生物 特征 的 反应 和 之 前 网 络 获 foer = =X 100 (5) 
取 的 眼睛 和 嘴巴 状态 ， 通 过 计算 PERCLOS 和 嘴巴 张 合 频率 HP: n 表 示 闭 眼 帧 数 ，N 表 示 单 位 时 间 总 帧 数 。PERCLOS 可 
(FOM) 对 驾驶 员 疲 劳 程 度 进行 标定 。 以 很 好 地 量化 驾驶 员 闭 眼 的 程度 ， 当 PERCLOS 达到 某 一 个 阔 


值 时 文献 [11] 给 出 0.15)， 可 以 判断 驾驶 员 闭 眼 时 长 过 长 , 已 
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经 可 以 初步 认为 其 进入 了 疲劳 状态 。 
4.2 ”嘴巴 张 合 频率 (FOM) 
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5.2 ”实验 结果 分 析 


嘴巴 张 合 频 率 (FOM) 与 PERCLOS 类 似 ， 表 示 的 是 单位 时 
间 内 嘴巴 张 着 的 帧 数 和 单位 时 间 总 帧 数 之 间 的 比值 。 其 计算 公 
式 如 下 : 


from = 2 X 100 (6) 

与 PERCLOS 一 样 , n 表 示 闭 嘴 帧 数 ，N 表 示 单 位 时 间 总 帧 
数 。 且 这 两 个 指标 都 是 值 越 大 ， 表 示 疲 劳 程度 越 大 。 最 后 的 疫 
劳 状态 检测 需要 联合 两 者 同时 考虑 。 
4.3 ”疲劳 状态 检测 

所 有 深度 网 络 的 预 训练 完成 以 后 , 根据 PERCLOS 和 FOM 
定好 疲劳 状态 阔 值 ， 把 整个 网 络 系统 应 用 到 实时 检测 中 。 有 具体 
步骤 为 : 摄像 头 拍摄 驾驶 员 视 频 ，MTCNN 抓 取 每 一 帧 的 人 脸 
和 5 个 关键 点 部 位 ， 提 取出 眼睛 和 嘴巴 区 域 ， 利 用 MSP-net 对 
每 一 帧 抓 取出 来 的 眼睛 和 嘴巴 部 分 进行 状态 检测 ， 保 存 到 固定 
长 队列 中 ， 算 法 实时 检测 队列 中 值 的 变化 情况 ， 当 队列 中 所 有 
值 的 分 布 情况 达到 阔 值 疲劳 状态 时 ， 报 警 机 制 就 启动 ， 提 醒 轰 
驶 员 已 进入 疲劳 。 


5 ”实验 与 分 析 


5.1 实验 平台 与 数据 集 

所 有 的 样本 采集 、 网 络 训练 和 结果 测试 均 是 基于 Python3.6 
和 Tensorflow1.2 实现 的 。 摄 像 头 使 用 普通 摄像 头 和 920 nm 的 
红外 摄像 头 。 处 理 器 为 CPU (3.20 GHz)， 内 存 4 GB. IREMI 
嘴巴 的 数据 集 (eye & mouth database, EMD), 是 通过 普通 摄像 头 
和 红外 摄像 头 一 同 采集 , 一 共 采 集 21 位 志愿 者 的 数据 , 整理 出 
眼睛 36 764 个 样本 ,嘴巴 15 185 个 样本 。 

为 进一步 检验 提出 的 MSP-Net 的 检测 效果 , 本 文 还 针对 人 
眼 状态 公共 数据 集 ZJU Eyeblink Database22 数 据 集 (图 8) 进 
行 了 实验 和 算法 性 能 对 比 。 该 数据 库 采 集 了 20 个 人 共 80 个 视 
SO. FEDS A 4 个 剪辑 : 不 带 眼 镜 正 视图 剪辑 、 带 薄 边 眼镜 
正视 图 剪辑 、 带 黑 边 眼镜 正视 图 剪辑 和 不 带 眼镜 仰视 图 剪辑 。 
该 数据 集 图 像 分 为 睁 眼 和 闭 眼 两 类 。 睁 眼 样本 共 7 000 个 ， 其 
中 训练 样本 5 770 个 ,测试 样本 1 230 个 ; 闭 眼 样本 共 1 984 个 ， 
其 中 训练 样本 1 574 个 ,测试 样本 410 个 。 每 张 图 片 大 小 24*24。 


ae e 


图 8 ZJU 数据 集 样本 示例 


MTCNN 人 脸 检 测 效果 显著 。 图 9 为 MTCNN 在 本 文 的 实 


际 检测 结果 。 从 实验 结果 可 以 看 到 ， 即 使 测试 者 脸 部 转 过 一 定 
角度 ，MTCNN 依然 可 以 很 好 地 检测 到 人 脸 。 本 文 主要 针对 眼 


睛 和 嘴巴 状态 检测 和 疲劳 状态 检测 进行 相关 实验 。 


5.2.1 眼 


ELE 
张 ， 训 练 样本 


A CAR 
mÆ EMD 中 眼睛 样本 36 764 张 ， 嘴 巴 样 本 15 185 
5 95%， 测 试 样本 占 5%。 训 练 的 具体 分 类 和 样 
本 数 如 表 1 所 示 。 训 练 前 进行 灰 度 化 、 归 一 化 和 直方 图 均衡 等 


态 检 测 


操作 ， 输 入 网 络 的 图 像 为 48*48 的 灰 度 图 。 为 了 验证 MSP-Net 
网 络 对 眼睛 嘴巴 状态 检测 的 效率 ， 分 别 使 用 经 典 AlexNet 和 


ResNet 进行 参数 训练 和 测试 ， 并 作 比 较 。 各 网 络 的 测试 结果 如 


表 2 所 示 。 
从 实验 结果 可 以 看 到 ， 本 文 提 出 的 MSP-net 对 于 眼睛 嘴巴 
状态 的 检测 有 着 较 高 的 准确 率 。 此 外 ， 比 较 眼 睛 和 嘴巴 的 实验 


结果 发 现 ， 


判别 受 至 


嘴巴 的 准确 率 普 遍 比 眼睛 的 高 ， 这 是 因为 眼睛 状态 


果 比 嘴巴 的 略 低 。 


结果 的 文字 描述 。 
高 ， 在 佩戴 眼镜 、 


地 识别 出 眼 


有 带 眼 镜 、 不 带 眼 镜 及 眼镜 形态 等 干扰 ， 所 以 分 类 效 


实际 检测 效果 如 图 10 Aras. 图 左上 方 为 检测 
从 实验 效果 可 以 看 到 ，MSP-net 的 鲁 棒 性 很 


睛 和 嘴巴 的 状态 。 


光线 较 弱 是 有 转 头 的 情况 下 ， 依 然 能 够 准确 


疲劳 检测 除了 需要 较 高 的 检测 准确 率 ， 还 需要 快速 检测 的 
能 力 。 因 此 ， 网 络 的 检测 速度 也 很 重要 。 表 3 显示 的 是 三 种 网 
络 在 CPU 上 检测 一 张 48*48 灰 度 图 片 的 运算 速度 。 


从 表 3 可 以 


看 出 ，AlexNet 的 运算 速度 要 远 远 慢 于 ResNet 


和 MSP-net， 原 因 在 于 AlexNet 的 参数 量 多 很 多 ， 所 以 对 于 疲 
劳 检 测 来 说 ，AlexNet 并 不 适用 。MSP-net 同 ResNet 在 准确 率 


和 实时 性 上 均 比 较 出 色 ，MSP-net 要 稍 优 于 ResNet。 


为 了 证 明 MSP-Net 网 络 的 普 适 性 , 本 文 在 ZJU 眼睛 状态 数 


据 集 上 与 其 他 两 种 方法 做 了 比较 实验 。 实 验 结果 如 表 4 所 示 。 
实验 内 容 是 判断 上 
“AUC” 表 示 的 是 受 试 者 工作 特征 曲线 (receiver operating 


characteristic curve, ROC) 73! 下 的 面积 。“Acc.” 及 “AUC” 值 越 
能 越 优 。 文 献 [24] 使 用 了 方向 梯度 直方 图 
(histogram of oriented gradient, HOG) 描述 子 和 随机 蕨 算法 


K KIH ER A A 


民 睛 的 睁 闭 状 态 。 表 中 , “Acc.” 表 示 准 确 率 ， 


(random ferns) 提 取 眼 睛 特征 并 检测 睁 闭 ; 文献 [22] 则 提出 了 一 


种 新 的 特征 描述 子 


F: 主 向 梯度 多 尺度 直方 图 (MultiHPOG )， 以 


提高 对 图 


像 噪声 和 尺度 变化 的 鲁 棒 性 。 从 实验 结果 中 可 以 看 出 ， 


BMT 


不 管 在 闪 


确 度 上 还 是 耗 时 上 均 优 于 上 述 两 种 方法 。 


图 9 MTCNN 实际 检测 结果 
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表 1 眼睛 嘴巴 训练 样本 详细 数据 
数据 集 训练 对 象 类 别 和 训练 样本 数 
ee 普通 摄像 头 睁 眼 红外 摄像 头 睁 眼 普通 摄像 头 闭 眼 红外 摄像 头 闭 眼 
a 10 034 5381 12 600 7126 
pE 普通 摄像 头 张嘴 红外 摄像 头 张嘴 普通 摄像 头 闭 嘴 红外 摄像 头 闭 嘴 
3 802 2 606 4 877 3 661 
表 2 眼睛 嘴巴 状态 检测 测试 结果 对 比 
数据 集 分 类 对 象 测试 样本 数量 网 络 准确 率 /% 
AlexNet 97.192 
眼睛 1 853 ResNet 97.786 
MSP-Net 98.056 
EMD 
AlexNet 98.606 
嘴巴 789 ResNet 98.479 
MSP-Net 98.859 


10 眼睛 嘴巴 实际 判断 情况 


图 
表 3 眼睛 嘴巴 状态 检测 模块 单 张 图 片 各 网 络 检测 速度 
网 络 耗 时 /ms 
AlexNet 32.8 
ResNet 5.6 
MSP-Net 4.3 


表 4 几 种 方法 在 ZJU 数据 集 上 的 表现 结 


ZJU 数据 集 
方法 
Acc/% AUC/% 耗 时 /ms 
HOG + Random Ferns[24] 94.76 98.89 9.000 
MultiHPOG + SVM[22] 96.83 99.27 37.570 
MSP-Net (本 文 ) 96.89 99.05 1.823 
表 5 疲劳 检测 实验 结果 
疲劳 次 数 误 检 次 数 漏 检 次 数 查 准 率 / % 查 全 率 / % 
普通 摄像 头 100 2 1 98.02 99.00 
红外 摄像 头 100 5 2 95.15 98.00 
5.2.2 疲劳 状态 检测 
Wierwille 等 人 0 在 其 论文 中 给 出 : 当 进 入 疲劳 时 ， 
PERCLOS 值 大 于 0.15， 而 其 他 研究 者 也 有 根据 数据 将 


PERCLOS BEEREN E 


他 值 ， 如 0.25021, 


本 文 在 PERCLOS 基础 上 同时 考虑 了 FOM 的 影响 ,提出 一 


种 疲劳 检测 的 方案 : (a) 当 PERCLOS 大 于 等 于 0.5 或 者 FOM 大 
于 等 于 0.5 时 , 判断 为 疲劳 ; (b) 不 满足 (a) 情 况 时 ， 当 PERCLOS 
大 于 等 于 0.4 同时 FOM 大 于 等 于 0.3 时 ， 同 样 判断 为 疲劳 。 

疲劳 检测 系统 实验 中 ， 拍 摄 10 名 志愿 者 模拟 驾驶 的 过 程 ， 
每 人 模拟 10 次 疲劳 状态 , 共 100 次 疲劳 。 同 时 要 求 期 间 可 以 出 
现 各 种 干扰 状态 ， 如 增加 有 皮 眼 频率 、 说 话 、 轻 笑 等 。 检 测 系 统 
同时 用 普通 摄像 头 和 红外 摄像 头 实时 检测 志愿 者 的 状态 。 表 5 
记录 了 实验 结果 。 

查 准 率 的 计算 公式 为 

P = (np — Mmis)/ (My — Mis + Nerr) (7) 

其 中 : P 为 查 准 率 ; n IEA RG Ner IRRIG nmi HI 
检 次 数 。 查 准 率 反映 了 误 检 概率 ， 查 准 率 越 高 ， 误 检 越 低 。 

查 全 率 的 计算 公式 为 

R = (np — Mis) /My (8) 

其 中 : RABAR. HERMES, Bex, I 
检 越 低 。 

从 实验 结果 可 以 看 出 ， 系 统 的 查 准 率 和 查 全 率 均 较 高 。 相 
比 于 模拟 夜晚 状态 的 红外 图 像 来 说 ， 白 天 普通 摄像 头 拍摄 的 
RGB 图 像 具 有 更 高 的 查 准 率 和 查 全 率 。 
5.3 讨论 
在 实验 过 程 中 ， 遇 到 以 下 几 个 问题 。 


= 
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在 采集 样本 的 过 程 中 ， 嘴 巴 图 像 的 采 旨 
on 
j 各 向 异性 缩放 原理 P5， 将 输入 图 片 的 大 小 均 缩 放 到 48*48。 

实际 情况 中 ， 驾 驶 员 会 说 话 、 轻 笑 等 ， 这 些 情况 下 嘴巴 也 
是 张 开 的 。 不 过 ， 相 比 于 打 哈 从， 这 些 情况 张嘴 的 幅度 要 小 很 
多 。 为 了 减 小 检测 误差 ， 在 嘴巴 样本 进行 分 类 时 ， 将 嘴巴 微 张 
的 样本 均 归 为 闭合 的 类 ， 只 有 张 开 幅 度 较 大 的 样本 才 算 张 开 的 


于 程序 的 设计 ， 


a 


es; 


P3 


Ss 


前 期 ， 针 对 眼睛 嘴巴 状态 训练 ， 进 行 了 二 分 类 ， 即 将 普通 
摄像 头 和 红外 摄像 头 采集 的 样本 融合 到 一 起 ， 只 检测 眼睛 睁 闭 
和 嘴巴 张 合 ， 然 而 效果 不 理想 。 可 能 的 原因 是 普通 摄像 头 拍摄 
的 图 像 和 红外 摄像 头 拍摄 的 图 像 差异 性 较 大 ， 卷 积 神经 网 络 在 
自动 拟 合 特征 时 无 法 很 好 地 同时 满足 两 者 的 差异 性 。 经 过 分 析 ， 
最 终 本 文 将 类 别 分 成 四 类 ， 即 区 分 普通 摄像 头 和 红外 摄像 头 的 
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本 文 设计 了 一 种 级 联 深度 学 习 结 构 及 基于 多 尺度 池 化 卷 积 


神经 网 络 的 疲劳 检测 实时 系统 。 首 先 通过 MTCNN 网 络 检测 轰 
驶 员 的 人 脸 ， 提 取出 眼睛 和 嘴巴 关键 位 置 ， 然 后 将 眼睛 和 嘴巴 
图 像 送 入 多 尺度 池 化 MSP-Net 中 进行 状态 测试 , 设 定 固定 长 度 
队列 ， 队 列 保存 单位 时 间 内 对 每 一 帧 检测 的 结果 ， 通 过 
PERCLOS 和 嘴巴 张 合 频率 (FOM) 联 合 判 断 疲劳 状态 ,实验 表明 


本 文 提出 的 算法 具有 较 高 的 检测 准确 率 ， 同 时 可 以 达到 实时 检 
测 的 效果 ， 且 对 复杂 环境 (如 带 眼 镜 、 一 定 程度 的 偏 头 和 黑 
驾驶 等 ) 有 着 较 高 的 鲁 棒 性 。 本 文 提 出 的 方法 将 进一步 向 嵌入 
式 平台 移植 和 优化 。 
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